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摘 要 : 针对 传统 的 社交 网 络 异 常用 户 检测 算法 应 用 于 现实 中 非 平衡 数据 集 时 存在 召回 率 低 、 运 行 效率 低 等 问题 ， 

对 社交 网 络 数 据 集 提 取 用 户 内 容 、 行 为 、 关系 特征 ， 应 用 梯度 增强 集成 分 类 器 XGBoost 算法 进行 特征 选择 ， 

建立 分 类 模型 ， 人 三 类 垃圾 广告 发 送 账号 。 实 验 结果 表明 ， 该 方法 与 随机 森林 等 传统 分 类 方 
法 相 比 ， 对 平衡 及 非 平衡 数据 集 进行 异常 We 选取 少量 特征 同样 可 达到 较 高 
检测 水 平 ， 证 明了 方法 的 有 效 性 
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Research on abnormal user detection technology in social network based on XGBoost method 


Yuan Lixin, Gu Yijun', Zhao Dapeng 
(School of Information Technology & Network Security Enforcement, People’s Public Security University of China, Beijing 
102600, China) 


Abstract: Aiming at the problems of low recall rate and poor running efficiency caused by traditional abnormal accounts 
detecting algorithms in non-balanced social network datasets, the paper extracted user content, behavior, attributes, and 
relationship features from social network data sets, selected features using gradient-enhanced ensemble classifier XGBoost 
algorithm, established classification model, constructed unbalanced data sets and realized the identification of three types of 
spam accounts. Experimental results that the recall rate and the Fl value in identification of three types of abnormal users 
are improved effectively by XGBoost algorithm in binary classification and multiple classification tasks both in the 
balanced and unbalanced dataset in comparison with the traditional classification methods such as random forest. And with 
few features selected by XGBoost, the classification algorithms can get the same effect as with all features of samples, 
which proved the effectiveness of the method. 
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0 引言 的 方法 。 由 于 该 方法 不 需要 训练 样本 ， 因 此 可 以 快速 形成 检 
区 测 系统 。Miller 等 BI 利用 Twitter 用 户 个 人 信息 和 文本 内 容 特 
近年 来 ， 社 交 网 络 和 社会 媒体 得 到 和 蓬勃 发 展 ， 然 而 以 垃 。 征 将 正常 用 户 和 Spam 账号 聚 为 不 同 的 类 ; Chu 等 人 四 通过 
圾 广告 发 送 者 (又 称 spam 账号 ) 为 主 的 异常 用 户 时 刻 污 染 ”Twitter 发 布 内 容 中 嵌入 的 URL 的 最 终 跳 转 地 址 对 微 博 进行 
着 社交 网 络 环境 口 。 该 类 账号 是 攻击 者 创建 的 用 于 发 布 广告 、 ” 聚 类 ， 并 判断 类 内 账号 是 否 为 spam 账号 。 
钓鱼 、 色 情 等 URL 的 虚假 用 户 ， (有 较为 明显 的 行为 特征 。 1.3 监督 学 习 检测 方法 
它们 利用 在 线 社 交 网 络 大 规模 传播 有 害 信 息 ， 干 扰 平 监督 学 习 的 检测 方法 利用 事先 标注 类 别 的 数据 集训 练 
的 正常 使 用 , 威胁 着 互联 网 安全 中。 快速 有 效 地 识别 spam 账 ” 分 类 模型 ， 再 将 模型 运用 到 未 标注 数据 中 进行 预测 。Zheng 
号 有 助 于 从 源头 上 净化 社交 网 络 环境 ， 保 障 互联 网 安全 ,是 。 X 加 、 昌 少 卿 趾 等 利用 账号 创建 时 间 、 消 息 评论 数 等 内 容 和 行 
公安 与 情 领域 和 学 术 界 的 重点 研究 问题 之 一 为 特征 构建 分 类 器 ， 检 测 Spam 账号 ， 刘 琛 49 根 据 用户 发 布 
1 ”相关 工作 微 博 频 率 、 博文 中 “@” 个 数 等 行为 特征 建 模 并 识别 过 度 转发 、 
关注 行为 及 虚假 粉丝 ， Meng Jiang00、Xue02 对 社交 网 络 关 
1.1 现 有 检测 技术 系 图 中 节点 的 入 度 、 出 度 和 影响 力 进 行 建 模 检测 关注 量 与 
当前 ， 学 术 界 的 社交 网 络 异常 用 户 检测 工作 普遍 是 对 社 ”好 友 数 不 匹配 的 虚假 账号 ; FB 等 人 采用 随机 森林 和 SVM 方 


只 


蕊 


交 网 络 的 节点 提取 包括 注册 属性 、 发 布 内 容 、 活 动 行为 、 连 ”法 检测 spam 用 户 ， 并 公开 了 数据 集 站。 

接 关 系 等 在 内 的 一 类 或 几 类 特征 ， 构 建 多 维特 征 向 量 ， 再 运 传统 的 监督 学 习 分 类 方法 包括 支持 向 量 机 、 随 机 森林 

用 机 器 学 习 等 方式 进行 检测 ， 可 划分 为 基于 监督 学 习 和 无 监 等 。 其 中 支持 向 量 机 (SVM) 通过 在 高 维 向 量 空间 寻找 超 平 

督学 习 的 方式 。 面 来 实现 样本 分 类 ， 计 算 复 杂 度 低 、 对 小 样本 数据 分 类 效果 
出 众 ， 尤 其 适用 二 分 类 任务 。 随 机 森林 (random forest，RF) 


1.2 无 监督 学 习 检 测 方法 
无 监督 学 习 检 测 方法 是 直接 根据 待 检测 样本 的 多 维特 等 基于 决策 树 的 集成 分 类 模型 训练 时 每 次 从 n 维 原始 特征 中 
征 进 行 聚 类 ， 从 而 将 正常 用 户 和 spam 用 户 聚 集 为 不 同 的 簇 选择 k 个 最 有 效 特征 进行 分 裂 (k<n)， 并 行 地 生成 多 棵 决策 
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树 投 票 决 定 分 类 结果 ， 对 多 维特 征 数 据 分 类 具有 优秀 的 检测 人 本 
效果 。 ”网 国人 
数据 集 ”| 划分 
1.4 ”当前 检测 方法 的 局 限 性 -一 和 
于 无 监督 学 习 只 能 将 内 在 特征 相似 的 用 户 聚 集 为 簇 ， Ll | | mes EE 
但 无 法 直接 确定 簇 的 分 类 标签 ， 监 督学 习 方 式 能 有 效 利用 社 oa 
交 网 络 账号 多 维度 的 特征 ， 直 接 预 测 分 类 标签 ， 生 成 的 分 类 
模型 准确 性 更 高 。 因 此 采用 监督 学 习 方式 进行 异常 用 户 检测 图 1 基于 XGBoost 的 社交 网 络 异 常用 户 检测 流程 
更 为 有 效 。 当 前 常用 的 监督 学 习 方 法 虽然 能 够 达到 一 定 的 检 Fig.1 Abnormal user detection process in social network based on 
测 目 标 ， 但 检测 精度 依然 有 限 ， 这 主要 由 特征 选择 和 算法 选 XGBoost 
择 两 方面 的 原因 引起 的 。 每 轮 生 成 的 树 模型 由 结构 部 分 gq 和 叶子 节点 样本 权重 w 
a) 特 征 选择 方面 ， 前 人 研究 往往 仅 选择 行为 特征 等 同一 .yy， 人 A 
类 特征 进行 检测 。 通常， 由 于 社交 网 络 异常 用 户 的 多 类 特征 共同 表示 为 ， 户 P9]。 呈 (?)。 树 的 复杂 度 由 叶子 个 数 了 和 
均 与 正常 用 户 有 所 区 别 ， 因 此 只 选择 某 类 特征 容易 遗漏 其 他 ”样本 权重 w 的 L2 模 平方 共同 决定 ， 其 中 T 越 大 ， 样 本 间 的 
特征 所 蕴涵 的 信息 ， 不 足以 准确 描述 数据 的 真实 情况 ， 导 致 a 
均匀 ， 则 树 的 结构 杂 。 正 则 化 项 1 控 秆 
检测 效果 不 佳 。 但 如 若 选择 全 部 特征 ， 由 于 社交 网 络 账号 各 Y 值 越 不 均匀 ， 则 树 的 结构 越 复杂 。 正 则 化 项 “(/) 控制 
特征 之 间 存 在 相关 性 , SVM 等 运用 embedding 方法 将 样本 非 ” 型 的 复杂 程度 ， 有 效 防止 过 拟 合 ， 定 义 为 
yy oy7+11 丙 


差 ,对 高 维特 征 的 检测 效果 很 有 限 。 


此 需要 寻求 一 种 特征 选 


择 方法 ， 达 到 既 利 用 全 类 别 特征 ， 同 时 避免 高 维特 征 引发 品 将 目标 函数 二 阶 泰勒 展开 ， 改 写 后 得 到 最 终 目标 函数 为 
声 的 目标 。 se 1 2 
b) 算 法 选择 方面 ， 随 机 森林 方法 虽 能 通过 特征 选择 过 程 人 四 

降低 数据 集 维度 、 消 除非 正 交 特 征 影响 ， 但 每 一 次 分 裂 中 未 | 

中 : 一 47 | 不 节点 上 样本 集合 ， 
被 选中 的 特征 无 法 参与 本 轮 运算 ， 容 易 造成 特征 信息 损耗 ， 。 其 中 “五 一 世 |9(25 = 让)} 表示 各 叶子 节点 上 样本 
产生 误差 。 并 且 ， 由 于 社交 网 络 真实 数据 集 是 一 个 正常 用 户 G,=5 gH,= Dh nm, i 
数量 远 超 异 常用 户 的 非 平衡 数据 集 ， 存 在 长 尾 效 应 ， 随 机 森 所 和 
林 在 不 平衡 数据 集 上 检测 时 会 出 现 分 类 效果 不 佳 、 泛 化 误差 之 和 。 共 同 运用 一 阶 、 二 阶 导数 信息 进行 优化 可 得 到 整体 最 
变 大 等 一 系列 问题 , 因此 需要 选择 一 种 能 有 效 利用 多 维特 征 、 。 优 解 。 

实验 通过 每 一 步 尝试 对 已 有 叶子 节点 加 入 分 隔 来 逐 源 


并 且 样 本 集 严 重 不 均衡 时 依然 有 效 的 算法 。 


当前 ， 对 非 平衡 数据 进行 分 类 是 社交 网 络 异 常 检测 的 下 
究 难 点 之 一 。 学 术 界 对 非 平衡 数据 分 类 问题 的 解决 方式 主要 


包括 利用 重 采样 技术 05-17 以 及 改进 分 类 算法 08 !91。 重 采样 技 
术 通 过 扩大 较 小 类 数据 规模 或 缩小 较 大 类 规模 的 方式 降低 类 
间 非 平衡 率 ， 但 通过 从 采样 或 过 采样 构造 而 来 的 新 数据 集 无 


生成 最 优 的 树 结构 ， 分 裂 的 增益 为 


G6’ (G, + G.) 


Gain = 1i +t]y (4) 


法 完全 符合 原始 数据 集 的 真实 分 布 ， 容 易 造成 信息 损耗 或 过 
度 拟 合 。 通 过 在 原 有 算法 的 基础 上 引入 增 量 联机 学 习 053、 集 
成 学 习 09 等 方法 进行 改进 ， 也 可 以 实现 降 第 法 在 非 平 条 
据 集 的 敏感 度 ， 但 该 方式 容易 引入 计算 复杂 度 大、 
新 间 题 ， 并 且 仅 在 单一 层面 关注 解决 非 平 衡 分 类 问 是 的 同时 
容易 牺牲 模型 的 泛 化 性 。 


2 基于 XGBoost 的 异常 用 户 检测 方法 


社交 网 络 异 常用 户 检 测 的 本 质 是 将 数据 集中 的 所 有 样 
本 划分 为 正常 用 户 及 各 类 异常 用 户 的 多 分 类 任务 。 本 文选 择 
XGBoost (extreme gradient boosting ) (3 集成 提升 方法 构建 分 
类 模型 。 分 类 训练 数据 集 的 每 一 个 样本 对 应 社交 网 络 中 的 每 
一 个 用 户 ， 由 包含 内 容 、 行 为 、 属 性、 关系 等 在 内 的 n 维特 
征 向 量 xi 和 对 应 的 p 个 类 别 标签 yi 构成: {x%,y}anw，%eER"， 
基于 XGBoost 对 用 户 进 行 分 类 的 方 

法 是 通过 学 习 输入 的 训练 样本 ， 构 造 分 类 模型 ， 挖 掘 特征 取 
值 xi 与 类 别 标签 yi 的 关系 /xs)=y，, 从 而 预测 新 样本 的 类 别 。 
整体 检测 流程 如 图 1 所 示 。 
对 本 文 提出 的 分 类 任务 ，XGBoost 每 一 轮训 练 都 是 在 上 

轮 的 基础 上 和 迭代 产生 的 ， 第 t 次 迭代 对 生成 树 构造 的 目标 


O81? = DI) +P ORD + D+) teonstant (1) 


yi ef{classi,class,,...,class,} 。 


当 分 裂 增益 连 纪 


0 Hit+A4 H,+Hi+4 


卖 小 于 定 值 或 分 裂 次 数 达 到 指定 的 最 大 


深度 时 停止 分 裂 ， 得 到 最 终 分 类 模型 。 


对 于 上 文 提 到 的 特征 选择 问题 ， 本 文 构建 分 类 模型 时 保 
留用 户 的 内 容 、 行 为 、 属 性 、 关 系 等 全 部 特征 ， 充 分 利用 各 


类 特征 的 有 效 信 息 ， 避 免 信息 损耗 ， 通 过 串 行 迭 


代 运 算 寻 找 


损失 函数 最 优 值 来 优化 树 的 结构 ， 消 除 样 本 非 正 交 特征 的 影 


响 。 初 次 训练 完毕 后 ， 利 用 XGBoost 统计 各 特征 


被 用 于 决策 


树 分 裂 的 次 数 ， 计 算 样本 特征 与 分 类 结果 的 关联 程度 ， 从 而 


按照 特征 重要 性 进行 特 租 


EF 选择 ， 降 低 维 度 。 


面向 现 


实 中 spam 用 户 数 量 远 少 于 正常 用 户 的 不 平衡 数 


据 ， 本 文 


max_delta 


从 而 避免 


进行 多 次 集成 迭代 运算 ， 且 控 制 XGBoost 的 
step 参数 来 限制 每 棵 树 的 权重 ， 改 变 最 大 步 长 ， 
小 数量 类 别 中 实例 样本 对 分 类 结果 的 影响 程度 过 


大 ， 降 低 训练 数据 不 平衡 造成 的 误差 。 
3 ”实验 分 析 研 究 
3.1 数据 集 和 对 比方 法 


本 文采 用 


Apontador 数据 集 凹 检验 方法 的 有 效 性 。 该 数 


滁 


巴西 著名 的 基于 位 置 的 社交 网 络 采 集 而 来 ， 是 包含 正 


目 户 和 


息 不 符 的 


布 者 CBM)， 分 别 占 异常 用 


别 是 产品 营销 广告 发 布 者 (LM)、 


spam 用 户 的 平衡 数据 集 , 其 中 spam 用 户 包括 3 类 ， 
发 布 内 容 与 话题 标签 信 
以 及 攻击 、 齐 加 等 不 良言 论 发 


辽 己 等 
户 比 例 为 31%、48.5%、21.4% 。 


内 容 污染 者 (PL)、 


每 条 记录 


包含 59 个 特征 字段 ( 表 1) 和 2 个 分 类 字段 。 
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嘿 
疏 


原作 者 利用 分 别 使 用 支持 向 量 机 《SVM) 和 随机 森林 
(RF) 方法 ， 对 该 数据 集 的 4 类 用 户 进 行 了 直接 分 类 ， 
先 区 分 样本 是 否 属于 异常 .再 区 分 异常 用 户 类 别 的 二 次 分 类 ， 
验证 了 RF 在 以 上 分 类 任务 中 效果 均 明 显 优 于 SVM (直接 分 
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类 时 RF 对 三 类 spam 的 召回 率 比 SVM 分 别提 升 3.2% ,4.5%， 
5.8%， 二 次 分 类 中 分 别提 升 1.7%，3.9%，6.3%)。 为 体现 本 
文 方法 的 合理 性 , 本 文 在 python 环境 中 复 现 文献 [1] 最 优 参 数 
下 的 RF 分 类 实验 ， 将 其 作为 实验 对 比 


o 


表 1 特征 说 明 表 


Table 1 


Feature list 


寺 征 名 


内 容 中 邮箱 数 、URLs 数 、 电 话 号 码 个 数 、 数 字 字 符 数 、 用 户 所 有 tip 中 的 1-gram、2-gram、3-gram 的 数量 及 比例 、 相 


户 特征 (32) 


关系 特征 (12) 


似 度 评分 〈 平 均值 、 中 位 数 、 最 大 最 小 值 、 标 准 差 )、 垃 圾 邮件 关键 词 数量 、 攻 击 值 、 大 写字 母 数 、 攻 击 性 词汇 数 、“this 
helped me” 点 击 数 “ 举 报 滥用 行为 ”点 击 数 、SASA、 大写 单词 数 、 幸 福 指数 、 PANAS-t、Combined-met hod、SentiStrength、 


SentiWordNet、SenticNet 


发 表 tp 数 、 发 布 照片 数 、 注 册 地 点 数 、 评 论 地 点 的 总 距离 〈 平 均值 ， 中 位 数 ， 最 大 值 ， 最 小 值 ， 标 准 差 )、 用 户 的 箭 、 
信息 覆盖 的 区 域 个 数 、 用 户 关注 的 主题 数 
节点 特征 (3) 发 布 包含 地 点 的 tip 数 、 地 点 评分 、“ 赞 ”点 击 数 、“ 踩 ”点 击 数 、 地 点 主页 点 击 数 
节点 出 入 度 比 、 节 点 度 /邻居 节点 平均 度 、 聚 类 


十 
池 


系数 、 粉 丝 数 、 关 注 数 、pagerank 值 、 双 向 关注 比 、 节 点 相关 性 、 
中 心性 


3.2 ”实验 步骤 及 参数 选择 
本 实验 在 macOS 10.13.4 系统 、2.9 GHz Inter Core i5 处 
理 器 、Python 3.6.4 环境 下 进行 ， 步 又 如 下 : 
a) 读 入 数据 并 进行 预 处 理 。 读 入 数据 ， 检 查 数 据 的 格式 
[分布 ， 利 用 XGBoost 计算 特征 影响 力 排名 ， 进 行 特征 重要 
排序 。 
b) 将 原始 数据 集 采 用 5 折 交 叉 验 证 方法 划分 实验 集 、 测 
试 集 ， 循 环评 估 模 型 分 类 效果 。 划 分 时 对 各 个 类 别 的 样本 进 
行 随机 分 层 取 样 ， 确 保 训 练 集 、 测 试 集 中 各 类 样本 的 分 布 与 
原始 数据 集 相 同 ， 避 免 采 样 误差 。 
c) 训 练 XGBoost 模型 并 调 参 。 对 b) 得 到 的 每 一 组 训练 集 
采用 5 折 交 叉 验 证 的 方式 划分 训练 子 集 、 验 证 子 集 ， 在 训练 
子 集中 利用 XGBoost 方法 欠 代 训练 模型 ， 运 用 CV 网 格 搜索 
的 方式 分 别 选取 各 个 参数 的 最 优 值 ， 逐 步调 参 ， 并 利用 验证 
子 集 验 证 模型 分 类 效果 ， 选 取 最 优 参 数组 。 
d) 选 择 由 最 优 参数 训练 而 成 的 模型 在 测试 集中 预测 分 类 
结果 ， 输 出 混淆 和 矩阵， 计算 准确 率 P、 召 回 率 R、F1 值 等 评 
价 指标 。 
经 验证 ， 参 数 为 max depth=3，n_estimators=100， 
n_threthould =None 时 , XGBoost 可 获得 最 优 分 类 效果 。 如 图 
2、3 所 示 。 
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图 2 交叉 验证 过 程 展示 图 
Fig.2 Cross validation process 
3.3 实验 结果 分 析 
3.3.1 平衡 数据 集 检测 结果 
本 文中 所 有 分 类 实验 的 评价 指标 均 由 相同 实验 重复 5 
次 、 计 算 平均 值得 到 ， 从 而 避免 实验 结果 的 偶然 性 。 作 为 对 


照 组 的 随机 森林 (RF) 方 法 运行 环境 、 实 验 步骤 均 与 XGBoost 
相同 。 在 直接 分 类 和 二 分 类 实验 中 ， 两 种 算法 得 到 的 结果 混 
消 和 矩阵 和 分 类 报告 如 表 2~4 所 示 (NS 表示 notspam )。 


原始 数据 集 
训练 子 集 


图 3 实验 步骤 展示 图 :内 循环 选择 模型 参数 ， 外 循环 验证 实验 
结果 


Fig.3 The steps of the experiment show: internal loop selecte 


model parameters, external loop validate test results 
表 2 XGBoost 与 RF 二 分 类 结果 对 比 
Table 2 Comparison of classification results between XGBoost and RF 
准确 率 P 召回 率 R Fl 值 
数值 (%) XGBoost RF XGBoost RF XGBoost RF 
notspam 99.63 97.17 93.22 93.76 96.32 95.44 
spam 41.60 78.15 93.22 89.10 57.53 83.27 
表 3 XGBoost 与 RF 多 分 类 结果 对 比 表 


Table 3 Comparison of XGBoost and RF results in multi-class 


classification 
准确 率 P 召回 率 R Fl 值 
数值 
C%) XGBoost RF XGBoost RF XGBoost RF 
O 


NS 87.66 85.08 ”9%432 95.56 90.88 90.02 
BM 89.33 89.13 78.96 77.89 84.18 83.13 
PL 69.61 70.58 68.66 6474 69.24 67.54 
BM 687 68.11 S58.68 5375 61.96 60.09 
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表 4 XGBoost 与 RF 实验 结果 混淆 矩阵 表 〈 数 值 表示 百分比 ) 森林 方法 的 优势 不 明显 。 
Table 4 Confusion matrix of XGBoost and RF experimental results 表 5 不 均衡 数据 集中 XGBoost 与 RF 表现 
(value expressed percentage) Table 5 XGBoostand RF performance in imbalanced data sets 
XGBoost 混淆 矩阵 RF 混淆 矩阵 - XGBoost RF 
上 spam 用 户 比例 “评价 指标 (%) 
BM LM NS PL BM IM NS PL BM ILM NS PL BM LIM NS PL 
BM S46 人 i 六 准确 率 68.63 90.78 86.03 70.11 71.66 90.95 84.55 70.85 
LM 047 77.23 5.46 16.84 LM 1.4 77.6 53 16.6 S50% 各 回 56.16 78.01 95.23 66.41 52.96 76.35 96.51 65.42 
五 值 61.77 95.23 90.4 68.21 60.91 83.01 90.13 68.03 
NS 1.61 70.23 95.42 2.6 NS 14 05 957 24 
准确 率 74.38 89.61 99.98 76.75 74.71 90.39 99.92 74.2 
PL 6.29 3.03 24.59 66.08 PL 74 41 233 652 
40% 各 回 率 62.89 81.54 99.99 86.15 56.99 78.55 99.99 87.66 
whoost EONS natix RF Confusion matrix 五 值 68.15 85.38 99.99 81.18 64.66 84.05 99.96 80.37 
me 80 BM go 准确 率 73.26 87.33 99.98 73.8 74.484 88.71 99.93 71.47 
30% 各 回 率 60.52 78.98 99.99 84.25 55.81 76.15 99.99 86.1 
LM 名 LM Ey 
五 值 66.28 82.95 99.98 78.68 63.81 81.95 99.96 78.11 
NS 上 过 准确 率 73.29 84.57 99.99 72.45 76.02 86.93 99.93 70.74 
20 20 20% 各 回 率 63.27 76.15 99.99 81.93 55 74.04 99.99 86.23 
PL PL 
五 值 67.91 80.14 99.99 76.9 63.82 79.97 99.97 77.56 
BM LM NS PL BM LM NS PL 
准确 率 68.56 79.06 99.97 66.07 75.53 81.47 99.94 65.79 
图 4 多 分 类 混淆 矩 阵 热 力 图 10% 各 回 率 54.38 72.48 99.99 76.57 47.87 71.04 99.99 83.31 
Fig.4 Thermodynamic chart of multi class confusion matrix 媚 值 60.65 75.63 99.99 70.94 58.6 75.9 99.97 73.52 
于 在 公安 实战 中 ， 与 正常 用 户 相 比 ， 更 关注 异常 用 户 。 3.3.3 特征 选择 检测 结果 
， wi vp i 站 S 人 > 局 3 各 
识别 率 ， 与 模型 检测 的 准确 率 相 比 ， 更 关注 召回 率 ， 因 此 在 社交 网 络 用 户 的 特征 可 分 为 文本 、 地 点 、 用 户 、 关 系 等 
对 比 算法 性 能 时 ， 应 选取 异常 用 户 的 召回 率 作为 重要 的 评价 0 类 。 为 探究 不 同类 别 的 用 户 特征 对 分 类 结果 的 影响 ， 并 验 
指标 。 证 xgboost 特征 选择 方法 的 有 效 性 ， 本 轮 实验 中 分 别 选择 四 


表 3 及 图 4 显示， 混淆 矩阵 对 角 线 所 在 色 块 颜色 较 深 ， 类 特征 单独 训练 模型 , 通过 XGBoost 按照 影响 力 排名 选择 前 


说 明 两 种 方法 均 能 实现 对 异常 用 户 的 有 效 监测 。 由 以 上 表格 。 10 个 、 前 20 个 特征 单独 训练 XGBoost 和 RF 分 类 器 进行 测 
可 以 看 出 ， 本 文 方法 在 将 spam 用 户 作为 一 个 整体 而 进行 的 。 试 ， 做 5 次 重复 实验 取 平 均值 。 分 类 效果 如 表 6 所 示 。 
二 分 类 任务 中 ( 表 5)， 对 异常 用 户 的 总 体检 测 召 回 率 可 以 达 表 6 各 类 特征 分 类 结果 
到 93.22%， 比 随机 森林 的 89.11% 提 升 了 4 个 百分点 。 在 Table 6 _ Classification results from different kinds of features 
分 类 任务 中 〈 表 3) 对 各 类 spam 用 户 的 召回 率 分 别 达 到 实验 结果 〈%) 全 部 特征 前 10 个 特征 前 20 个 特征 文本 特征 地 点 特征 用 户 特征 关系 特征 
78.96%、68.66%、58.68%， 与 随机 森林 相 比 召回 率 以 及 Fl et 82.9 73.2 81.25 73.83 68.48 58.54 59.64 
值 均 产 生 稳定 提升 (召回 率 分 别提 升 约 1%、4%、5%，F1l RF 812 72.85 80.68 7305 66.56 58.21 59.54 
值 提升 1% 以 上 )。 这 表明 本 文 方法 对 以 检测 异常 用 户 为 目标 实验 表明 ， 单 独 使 用 部 分 类 别 特征 虽然 也 可 以 达到 一 定 
的 公安 实战 工作 更 具 实 际 意 义 。 的 分 类 效果 ， 例 如 采用 32 个 内 容 特征 即 可 得 到 73% 的 召回 
3.3.2 不 平衡 数据 集 检 测 结果 率 ， 但 通过 XGBoost 方法 仅 选 择 20 个 特征 ， 就 能 在 两 种 分 
本 文通 过 保留 全 部 正常 用 户 、 按 比例 随机 剔除 异常 用 户 类 算法 中 实现 80% 以 上 的 平均 召回 率 ， 接 近 采 用 全 部 特征 的 


的 方式 构造 不 均衡 数据 集 ， 分 别 构 造 了 包括 异常 用 户 占 全 部 。 ”分 类 结果 ; 仅 采 用 前 10 个 重要 特征 ， 仍 能 达到 73.3 狗 的 召 匠 
用 户 比 例 为 10%-40% 的 数据 集 (异常 用户 比例 50% 代 表 均 衡 。 率 ， 精 度 高 于 单独 选取 任何 一 类 全 部 特征 。 这 证 明了 社交 网 
数据 集 ), 但 保持 各 数据 集中 三 类 异常 用 户 的 数量 比例 关系 与 。” 络 异 常用 户 检 测 过 程 中 ， 综 合 选取 各 类 特征 可 以 达到 比 单独 
原 数据 集 相 同 。 选取 相同 数量 的 某 一 类 特征 更 为 有 效 的 结果 ， 证 明了 
表 5 为 分 别 采 用 XBGoost 和 RF 两 种 分 类 方式 ， 在 上 述 ” XGBoost 特征 选择 的 有 效 性 。 在 公安 实战 中 ， 有 效 的 特征 选 
各 数据 集 进行 训练 并 测试 的 结果 。 表 格 中 的 数字 为 两 种 方法 “， 择 过 程 可 以 减少 样本 采集 所 需 的 特征 数 ,从 而 提升 检测 效率 。 
在 对 应 的 不 平衡 数据 集中 检测 三 类 异常 用 户 以 及 正常 用 户 的 ”此 外 ,以 上 所 有 情况 中 XGBoost 均 得 到 比 RF 更 高 的 召回 率 ， 
准确 率 、 召 回 率 和 Fi 值 。 对 比 XGBoost 和 RF 在 表格 相应 位 次 证 明 XGBoost 分 类 算法 的 优势 。 

置 的 每 个 数据 可 以 看 出 ， 两 种 集成 方法 在 不 均衡 数据 集中 检 ”4 结束 语 

测 异 常用 户 的 能 力 甚至 超过 了 均衡 数据 集 ， 证 明了 集成 学 习 


方式 处 理 不 平衡 数据 的 出 色 能 力 ; 并 且 XGBoost 在 对 BM 与 社交 网 络 异 常用 户 检测 本 质 上 可 以 归结 为 分 类 或 聚 类 
LM 两 类 异常 用 户 检测 的 召回 率 显著 高 于 RF 方法 ,表明 该 方 问题 。 在 构造 决策 树 的 过 程 中 ，XGBoost 算法 在 目标 函数 中 
法 对 不 平衡 数据 集 更 具有 效 性 。 对 损失 函数 计算 二 次 最 优化 ， 比 只 考虑 一 阶 导数 的 梯度 下 降 

这 是 因为 ，XGBoost 在 目标 函数 中 二 次 项 和 正则 项 的 共 提升 树 等 其 他 boost 方法 更 具有 全 局 搜索 的 能 力 ， 同 时 正则 


同 作 用 下 具有 很 强 的 泛 化 能 力 , 在 不 平衡 数据 集中 具有 比 RE ” 项 的 引入 增加 了 模型 的 泛 化 性 能 ， 节 点 权重 更 新 策略 在 保留 
更 加 优异 的 表现 。 此 外 ， 表 格 中 XGBoost 对 不 平衡 数据 集中 特征 完整 信息 的 同时 消除 了 非 正 交 特 征 的 影响 ， 在 社交 网 络 
PL 用 户 检测 的 准确 率 略 低 于 随机 森林 的 原因 可 能 是 : PL 是 spam 用 户 的 二 分 类 、 多 分 类 检测 任务 中 均 获 得 出 众 效果 。 在 
数量 最 多 的 一 种 异常 用 户 ,在 不 平衡 数据 集中 占 比 仍然 较 高 ， 更 贴近 社交 网 络 实际 情况 的 不 平衡 数据 集 进 行 spam 用 户 检 
并 且 在 收集 和 标注 数据 时 ， 内 容 污染 者 (PL) 是 发 布 内 容 与 测 时 ，XGBoost 表现 更 加 优秀 。 在 利用 公开 数据 集 识别 spam 
话题 标签 信息 不 符 的 一 类 账号 ， 与 内 容 特 征明 显 关 联 程度 更 ”的 过 程 中 ,利用 XGBoost 进行 特征 选择 ， 只 保留 三 分 之 一 的 
高 , 保留 全 部 特征 的 XGBoost 方法 对 于 保留 部 分 特征 的 随机 特征 即 可 达到 与 选择 所 有 特征 相似 的 检测 效果 ， 可 以 提升 数 


T 
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据 采 集 的 效率 。 并 且 无 论 是 选取 全 部 特征 或 部 分 特征 ， 

XGBoost 与 集成 分 类 器 随机 森林 方法 相 比 ， 都 得 到 召回 率 和 

Fl 值 的 提升 ， 在 公安 工作 中 具有 重要 的 实际 意义 

研究 展望 : a) XGBoost 算法 只 能 处 理 数 二 型 特征 ， 因此 

在 实战 检测 过 程 中 需要 增加 数据 预 处 理 的 步骤 ， 将 非 数字 的 

特征 进行 数值 型 转换 ，b) 不 平衡 数据 中 XGBoost 和 RF 分 别 
因 


I 


对 不 同类 别 的 特征 检测 效果 更 好 ， 因 此 可 以 根据 不 同 的 检测 
目标 选择 不 同 的 分 类 方法 ; c) 在 今后 的 研究 中 可 以 将 多 种 算 
法 融合 在 异常 用 户 检 测 模型 中 ， 从 而 提升 社交 网 络 异常 用 户 
检测 模型 的 鲁 棒 性 。 
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